1. Загружаем и изучаем данные

Data summary
Name Piped data
Number of rows 671
Number of columns 27
_______________________
Column type frequency:
factor 7
numeric 20
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
race 25 0.96 FALSE 4 bla: 369, whi: 257, nat: 16, ori: 4
inout 3 1.00 FALSE 2 bor: 547, tra: 121
delivery 22 0.97 FALSE 2 vag: 335, abd: 314
pvh 145 0.78 FALSE 3 abs: 360, def: 125, pos: 41
ivh 144 0.79 FALSE 3 abs: 442, def: 75, pos: 10
ipe 144 0.79 FALSE 3 abs: 472, def: 38, pos: 17
sex 21 0.97 FALSE 2 mal: 330, fem: 320

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
birth 21 0.97 84.75 1.60 81.51 83.52 84.90 86.07 87.48 ▅▆▇▇▆
exit 31 0.95 84.84 1.79 68.53 83.58 84.96 86.17 96.87 ▁▁▇▅▁
hospstay 31 0.95 40.36 304.84 -6574.00 16.00 37.00 62.00 3668.00 ▁▁▁▇▁
lowph 62 0.91 7.20 0.14 6.53 7.13 7.21 7.31 7.55 ▁▁▃▇▂
pltct 70 0.90 201.62 80.55 16.00 143.00 202.00 252.00 571.00 ▃▇▅▁▁
bwt 2 1.00 1093.89 265.22 400.00 900.00 1120.00 1310.00 1580.00 ▂▅▆▇▅
gest 4 0.99 28.87 2.55 22.00 27.00 29.00 31.00 40.00 ▂▇▆▁▁
twn 20 0.97 0.21 0.41 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▂
lol 381 0.43 8.44 19.26 0.00 0.00 3.50 9.00 192.00 ▇▁▁▁▁
magsulf 247 0.63 0.13 0.34 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▁
meth 106 0.84 0.44 0.50 0.00 0.00 0.00 1.00 1.00 ▇▁▁▁▆
toc 106 0.84 0.22 0.42 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▂
apg1 34 0.95 4.90 2.63 0.00 2.00 5.00 7.00 9.00 ▅▆▆▇▇
vent 30 0.96 0.58 0.49 0.00 0.00 1.00 1.00 1.00 ▆▁▁▁▇
pneumo 26 0.96 0.20 0.40 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▂
pda 29 0.96 0.21 0.41 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▂
cld 66 0.90 0.27 0.44 0.00 0.00 0.00 1.00 1.00 ▇▁▁▁▃
year 21 0.97 84.76 1.60 81.51 83.52 84.91 86.07 87.48 ▅▆▇▇▆
dead 0 1.00 0.21 0.41 0.00 0.00 0.00 0.00 1.00 ▇▁▁▁▂
id 0 1.00 336.00 193.85 1.00 168.50 336.00 503.50 671.00 ▇▇▇▇▇

1.1 Удаление колонок с пропусками больше 100, затем строк с пропущенными значениями

2. Графики плотности распределения. Удаление выбросов

Сначала конвертируем переменные apg1, twn, vent, pneumo, pda, cld, dead, id в факторы.

Data summary
Name Piped data
Number of rows 531
Number of columns 20
_______________________
Column type frequency:
factor 12
numeric 8
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
race 0 1 FALSE 4 bla: 303, whi: 211, nat: 13, ori: 4
inout 0 1 FALSE 2 bor: 448, tra: 83
twn 0 1 FALSE 2 0: 422, 1: 109
delivery 0 1 FALSE 2 vag: 269, abd: 262
apg1 0 1 FALSE 10 8: 91, 1: 74, 6: 70, 7: 69
vent 0 1 FALSE 2 1: 288, 0: 243
pneumo 0 1 FALSE 2 0: 438, 1: 93
pda 0 1 FALSE 2 0: 425, 1: 106
cld 0 1 FALSE 2 0: 393, 1: 138
sex 0 1 FALSE 2 mal: 267, fem: 264
dead 0 1 FALSE 2 0: 467, 1: 64
id 0 1 FALSE 531 2: 1, 4: 1, 5: 1, 7: 1

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
birth 0 1 84.63 1.54 81.51 83.43 84.77 85.83 87.48 ▅▆▇▇▅
exit 0 1 84.76 1.55 81.05 83.56 84.87 85.99 87.72 ▂▆▇▇▅
hospstay 0 1 47.04 63.50 -295.00 21.00 40.00 64.00 797.00 ▁▇▁▁▁
lowph 0 1 7.22 0.13 6.53 7.13 7.22 7.32 7.55 ▁▁▃▇▂
pltct 0 1 204.49 80.83 16.00 148.00 204.00 256.00 571.00 ▂▇▅▁▁
bwt 0 1 1135.61 240.04 400.00 960.00 1160.00 1330.00 1500.00 ▁▃▆▇▇
gest 0 1 29.25 2.21 23.00 28.00 29.00 31.00 36.00 ▁▇▇▆▁
year 0 1 84.63 1.54 81.51 83.43 84.77 85.83 87.48 ▅▆▇▇▅

Построим графики плотности распределения количественных переменных

Явные выбросы у переменной hospstay: отрицательные значения и значения больше 300 . Удалим их.

Раскрасим графики плотности по переменной ‘inout’.

3. Тест на сравнение значений колонки ‘lowph’ между группами в переменной inout.

Выбран t_test с методом Уэлча, т.к. минимальное количество в группе 80 и дисперсии неизвестны.

## # A tibble: 1 × 8
##   .y.   group1       group2         n1    n2 statistic    df           p
## * <chr> <chr>        <chr>       <int> <int>     <dbl> <dbl>       <dbl>
## 1 lowph born at Duke transported   438    80      5.32  107. 0.000000588
## 
##  Welch Two Sample t-test
## 
## data:  cleaned_data_1$lowph by cleaned_data_1$inout
## t = 5.3159, df = 106.63, p-value = 5.876e-07
## alternative hypothesis: true difference in means between group born at Duke and group transported is not equal to 0
## 95 percent confidence interval:
##  0.05424374 0.11876292
## sample estimates:
## mean in group born at Duke  mean in group transported 
##                   7.230751                   7.144248

Интерпретация: Отвергаем нулевую гипотезы о равенстве средних в группе born at Duke и группе transported. Т.к. среднее в группе transported статистически значимо ниже, то можно предположить, что в данной группе более низкая выживаемость.

4.Новый датафрейм

4.1 с континуальными данными. Корреляционный анализ.

4.2 с ранговыми данными. Корреляционный анализ.

5. Иерархическая кластеризация

5.1 Континуальные данные

## $hopkins_stat
## [1] 0.7904047

Оценим кластеризацию:

## [1] 0.62383

5.2 Ранговые данные

## $hopkins_stat
## [1] 0.8273205

Оценим кластеризацию:

## [1] 0.728013

6 Heatmap

6.1 Континуальные данные

Интерпретация: Длительное пребывание в госпитале ассоциировано с низким весом при рождении и ранними родами.

6.2 Ранговые данные

Интерпретация: В группе со смертельным исходом более низкий балл по шкале апгар, шкала апгар не ассоциирована с количеством рожденных детей.

7. PCA

7.1 Континуальные данные

## Importance of components:
##                          PC1    PC2    PC3    PC4     PC5
## Standard deviation     1.536 0.9965 0.8910 0.7655 0.51689
## Proportion of Variance 0.472 0.1986 0.1588 0.1172 0.05343
## Cumulative Proportion  0.472 0.6706 0.8294 0.9466 1.00000

Интерпретация: 3 компоненты обуславливают 83% дисперсии данных. В первую компоненту основной вклад вносят переменные: вес и гестационный возраст при рождении; во вторую компоненту основной вклад вносят число тромбоцитов; в третью компоненту основной вклад вносит минимальное значение pH и срок госпитализации. PCA применяется в первую очередь для количественные данных и обязательно проводится масштабирование.

8. PCA график

9. PCA график plotly

10. Интерпретация PCA анализа

Вес при рождении и неделя беременности, на которой произошло родоразрешение, определяют 47.2% вариации в количественных данных. Количество тромбоцитов определяют в свою очередь почти 20% вариации в данных, а Минимальное pH и длительность госпитализации определяют 16% вариации. Присутствует выраженное смещение случаев со смертельным исходом вдоль главной компоненты. Почему использовать колонку ‘dead’ для выводов об ассоциации с выживаемостью некорректно? PCA анализ не выявляет аасоциации, а только определяет комбинации переменных, объясняющих вариацию данных, при минимальной корреляции компонент.

11. UMAP

Визуализиуем два измерения UMAP и добавим информацию о летальном исходе

Интерпретация: После PCA точки распределены более равномерно, разряжено, в то время как после UMAP образуется больше локальных сгустков.

12. Измените основные параметры UMAP (n_neighbors и min_dist) и проанализируйте, как это влияет на результаты

С уменьшением числа ближайших соседей уменьшается размер сгустков, с увеличением этого числа увеличивается разреженность облака точек наблюдений. С уменьшением минимальной дистанции увеличивается скученность точек, с увеличинем минимальной дистанции растет разреженность точек.

13. Пермутируйте 50% и 100% колонки ‘bwt’. Проведите PCA и UMAP анализ.

13.1 Пермутация 50% bwt

13.1.1 PCA

## Importance of components:
##                           PC1    PC2    PC3    PC4     PC5
## Standard deviation     1.4308 0.9893 0.9065 0.8428 0.66478
## Proportion of Variance 0.4094 0.1957 0.1643 0.1421 0.08839
## Cumulative Proportion  0.4094 0.6052 0.7695 0.9116 1.00000

13.1.1 UMAP

13.2 Пермутация 100% bwt

13.2.1 PCA

## Importance of components:
##                           PC1    PC2    PC3    PC4     PC5
## Standard deviation     1.3232 1.0170 0.9753 0.8751 0.70559
## Proportion of Variance 0.3502 0.2069 0.1902 0.1532 0.09957
## Cumulative Proportion  0.3502 0.5571 0.7473 0.9004 1.00000

13.2.1 UMAP

Интерпртация: Наблюдаете ли вы изменения в куммулятивном проценте объяснённой вариации PCA? С ростом объема пермутации снижается кумулятивный процент первых компонент.

В итоговом представлении данных на биплотах для PCA? Да, относительный вклад переменных в компоненты PCA, для 100% btw больше не коррелирует с gest и вносит основной вклад во вторую компоненту.

Отличается ли визуализация данных? Отличается.

14. Анализ чувствительности

Удалим выбросы (п2) и заполним медианой все пропуски в численных данных

14.1 Корреляция

14.2 Иерархическая кластеризация

## $hopkins_stat
## [1] 0.8217443

Оценим кластеризацию:

## [1] 0.6338419

14.3 Heatmap

Интерпретация: Как отличаются получившиеся результаты? Заполнение пропусков медианным значением привело к увеличению кол-ва данных для анализа, что значительно изменило значение коэффициента корреляции между длительностью госпитализации и весом ребенка при рождении (0.69 -> 0.74) и сроком беременности(-0.38 -> -0.22). Качество кластеризации осталось приблизительно тем же, heatmap сравним. В чем преимущества и недостатки каждого подхода? Преимущество заполнения пропусков-увеличение кол-ва данных, доступных для анализа. Недостатки-ошибки в коэффициентах корреляции.

15. Анализ чувствительности.

15.1 PCA

## Importance of components:
##                           PC1    PC2    PC3    PC4    PC5
## Standard deviation     1.4900 0.9935 0.9618 0.7982 0.4801
## Proportion of Variance 0.4440 0.1974 0.1850 0.1274 0.0461
## Cumulative Proportion  0.4440 0.6414 0.8265 0.9539 1.0000

15.2 UMAP

Интерпретация: Результаты PCA сильно не изменились при замене пропусков медианой, вместо удаления строк. UMAP выделил отдельные кластеры со смертельным исходом после заполнения пропусков медианным значением.